Day2: 從 0 訓練 26M GPT - iT 邦幫忙::一起幫忙解決難題，拯救 IT 人的一天

2025 iThome 鐵人賽

DAY 2

1

AI & Data

實戰派 AI 工程師帶你 0->1系列第 2 篇

Day2: 從 0 訓練 26M GPT

17th鐵人賽

2025-08-27 09:12:13

190 瀏覽

分享至

前情提要

昨天主要講了一下這系列的目標，主要是以了解 attention 相關為主，並以一個簡單的 LLM 訓練當作開始，我們就來看看怎麼做吧~

github: https://github.com/jingyaogong/minimind

1. 建立環境

uv 安裝 tiktoken 有些問題，所以先安裝 cargo 讓 uv 能 build tiktoken 這個包，先另外 pandas 可能版本過舊導致安奘卡在那邊，所以我們先自行安裝最新版後面再安裝整個。
補充: 後續發現 tiktoken 似乎沒有使用，可能之前版本是用這個，所以在 requirements 註解掉就行

git clone https://github.com/jingyaogong/minimind.git
uv venv
source .venv\bin\activate
#apt install cargo
uv pip install pandas # 在requirements.txt 註解 pandas, tiktoken 這兩行
uv pip install -r requirements.txt

2. 下載資料

在 dataset 這個目錄下載一下官方說的資料，順便打印一下資料長甚麼樣子，等訓練時再下載另一個

wget https://www.modelscope.cn/datasets/gongjy/minimind_dataset/resolve/master/pretrain_hq.jsonl

wget https://www.modelscope.cn/datasets/gongjy/minimind_dataset/resolve/master/sft_512.jsonl

3.0 訓練

進到 trainer 這個目錄稍微給他訓練，全部照預設參數，大概會吃 6G ~ 7G 的記憶體，所以連 8G 的 4060ti 也是可以跑起來哦~~

3.1 測試

使用 2080ti 大概經過2小時的訓練，測試一下訓練 1 個 epoch 的模型，可以出字但第一個問題會一直出出同樣的字，這在 attention-based 的模型算蠻容易遇到，稱為"幻覺"，不過我們只花兩小時訓練就當體驗體驗，其他回答就有模有樣(先不管對錯)

4.0 SFT

接著我們試試監督式學習(記憶體使用 3~4G)，讓他學習對話模式，這邊我是採用 sft_512.jsonl，想說花點時間跑一下看看整個效果，也可以用 sft_mini_512.jsonl 就好

4.1 測試 SFT

稍微測試一下，如果問的問題有在訓練裡面，回答的應該就不錯。

上面的訓練基本上需要花點時間，但第一次自己嘗試訓練超超超小型的 LLM，能回答基本的問題我覺得就已經很不錯了，接下來我們將開始研究內部的細節。
今天就先到這囉~~

Day 1: 從 0 開始

Day3: tokenizer

系列文

實戰派 AI 工程師帶你 0->1 共 30 篇

目錄

RSS系列文訂閱系列文

1 人訂閱

完整目錄

熱門推薦

{{ item.subject }}

{{ item.channelVendor }} | {{ item.webinarstarted }} |

{{ formatDate(item.duration) }}

直播中

尚未有邦友留言

立即登入留言

參賽組數

902 組

團體組數

37 組

累計文章數

19866 篇

完賽人數

529 人

15th鐵人賽 16th鐵人賽 13th鐵人賽 14th鐵人賽 17th鐵人賽 12th鐵人賽 11th鐵人賽鐵人賽 2019鐵人賽 javascript 2018鐵人賽 python 2017鐵人賽 windows php c# linux windows server css react

IT邦幫忙